فهرست مطالب

مجله علوم آماری
سال شانزدهم شماره 1 (پیاپی 31، بهار و تابستان 1401)

  • تاریخ انتشار: 1401/05/16
  • تعداد عناوین: 12
|
  • زهرا رضائی قهرودی*، ژینا آقامحمدی صفحات 1-24

    با ظهور مه داده ها در دو دهه گذشته، به منظور بهره برداری و استفاده از این نوع داده ها، نیاز به یکپارچه سازی پایگاه داده ها با هدف تصمیم گیری براساس شواهد و اطلاعات قوی تر، بیش از پیش احساس می شود. لذا آشنایی با روش شناسی اتصال رکوردی به عنوان یکی از روش های یکپارچه سازی داده ها و همچنین استفاده از روش های یادگیری ماشین برای سهولت فرآیند اتصال رکوردها ضروری است. در این مقاله، ضمن تشریح فرایند اتصال رکوردی و برخی روش های مرتبط با آن، با استفاده از روش های یادگیری ماشین، برای افزایش سرعت یکپارچه سازی پایگاه داده ها، کاهش هزینه و بهبود عملکرد اتصال رکوردی، دو پایگاه داده چارچوب کارگاه های صنعتی مرکز آمار ایران و سازمان تامین اجتماعی به یکدیگر متصل شده اند.

    کلیدواژگان: اتصال رکوردی، یادگیری ماشین، مدل فلگی-سانتر، مقایسات زوجی جارو و وینکلر، آمار رسمی
  • ابراهیم امینی سرشت، قباد برمال زن، ابراهیم نصیرالاسلامی* صفحات 25-40

    در این مقاله به مقایسه تصادفی  میان پیچش متغیرهای تصادفی  متشکل از متغیرهای  مقیاس  پرداخته می شود. شرایط لازم برای برقراری ترتیب نسبت درستنمایی و ترتیب نرخ خطر اثبات شده است. نتایج اثبات شده در این مقاله، برخی از نتایج موجود در مقالات  را تعمیم می دهد. همچنین چندین مثال برای درک بیشتر قضایا ارایه شده است.

    کلیدواژگان: ترتیب نسبت درستنمایی، ترتیب نرخ خطر، مدل مقیاس، پیچش
  • ابوذر بازیاری*، مراد علیزاده صفحات 41-62

    مدل مخاطره جمعی اتکایی شرکت بیمه با سرمایه اولیه و حق بیمه ثابت وقتی خسارت ها دارای توزیع نمایی و فرآیند تعداد خسارت ها دارای توزیع پواسن باشند، در نظر گرفته شده است. فرض می شود که بیمه اتکایی بر مبنای بیمه اتکایی مازاد خسارت از طرف بیمه گر اتکایی انجام شود که در آن سبد بیمه، قسمتی از کل حق بیمه سهم بیمه گر اتکایی باشد. یک فرمول کلی برای محاسبه احتمال ورشکستگی زمان نامتناهی در مدل بیمه اتکایی مازاد خسارت با افزایش سرمایه بر حسب احتمال ورشکستگی مدل کلاسیک ارایه شده است. متغیر تصادفی مقدار کل مبلغ پرداختی از طرف بیمه گر اتکایی در مدل بیمه اتکایی مازاد خسارت، مورد بررسی قرار گرفته و فرمول هایی صریح برای محاسبه احتمالات ورشکستگی زمان نامتناهی در مدل بیمه اتکایی مازاد خسارت برای وقتی اندازه های خسارت دارای توزیع نمایی باشند، ارایه شده است. در پایان، نتایج برای توزیع های لیندلی و نمایی با داده های عددی مورد بررسی قرار گرفته است.

    کلیدواژگان: احتمال ورشکستگی، افزایش سرمایه، بیمه اتکایی مازاد خسارت، توزیع لیندلی
  • فرزاد اسکندری*، حمید حاجی آقا بزرگی صفحات 63-89

    مدل های آمیخته گرافی، ابزاری قدرتمند برای نمایش دیداری روابط استقلال شرطی بین داده های ناهمگن بالابعد فراهم کرده است. در مطالعه این مدل ها، اغلب توزیع مولفه های آمیخته، نرمال چندمتغیره با ماتریس های کواریانس متفاوت در نظر گرفته شده که مدل حاصل، به مدل آمیخته گرافی گاوسی معروف است. با جای گزین کردن فرض محدودکننده نرمال با یک مفصل نیمه پارامتری نرمال، مدل آمیخته گرافی نرمال ناپارامتری معرفی شده که هم مدل گرافی نرمال ناپارامتری و هم مدل های آمیخته را تعمیم داده است. در این مطالعه، خوشه بندی مبتنی بر مدل آمیخته گرافی نرمال ناپارامتری با دو فرم تابع تاوان $ell_1$ (متعارف و نامتعارف) پیشنهاد شده است و عملکرد آن با روش خوشه بندی مبتنی بر مدل آمیخته گرافی گاوسی مقایسه شده است. نتایج مطالعه شبیه سازی روی داده های نرمال و غیرنرمال، در حضور و عدم حضور داده های دورافتاده و همچنین نتایج کاربردی روی داده های سرطان سینه نشان داد که ترکیب مدل آمیخته گرافی نرمال ناپارامتری با تابع تاوان وابسته به نسبت های آمیخته، از نظر بازسازی خوشه ها و برآورد پارامترهای مدل، نسبت به سایر روش های خوشه بندی مبتنی بر مدل از دقت بالاتری برخوردار است.

    کلیدواژگان: توزیع نرمال ناپارامتری، خوشه بندی، لگاریتم درستنمایی تاوانیده، مدل های آمیخته گرافی
  • علی اکبر حسین زاده*، قباد برمال زن، مصطفی ستاری صفحات 91-108

    در این مقاله، ترتیب  نرخ خطر میان سیستم های (n-1) از  n, متشکل از مولفه های  نرخ خطر متناسب اصلاح شده مورد بحث قرار گرفته است. تحت شرایطی روی پارامترها و بیشاندن از پایین میان بردار اندازه نمونه ها، ترتیب نرخ خطر میان سیستم های (n-1) از n, متشکل از مولفه های نرخ خطر متناسب اصلاح شده با چندین دورافتاده، اثبات شده است.

    کلیدواژگان: ترتیب نرخ خطر، مدل نرخ خطر متناسب اصلاح شده با چندین دورافتاده، ترتیب بیشاندن از پایین، سیستم های (n-1) از n
  • عابدین حیدری، مصطفی ستاری*، قباد برمال زن صفحات 109-126

    دو سیستم موازی  را در نظر بگیرید بطوریکه هر کدام از دو مولفه با طول عمرهای مستقل نمایی تعمیم یافته تشکیل شده اند. در این مقاله، بر اساس پارامترهای شکل و مقیاس موجود در توزیع طول عمر یکی از سیستم ها، ناحیه ای معرفی می شود بطوریکه اگر بردار پارامترهای مقیاس سیستم دیگری در این ناحیه قرار گیرد، آنگاه ترتیب تصادفی نسبت درستنمایی میان طول عمر دو سیستم برقرار است. همچنین تعمیمی از این نتیجه به حالتی که طول عمرهای مولفه ها از توزیع وایبول نمایی شده پیروی می کنند نیز ارایه شده است.

    کلیدواژگان: سیستم های موازی، ترتیب نسبت درستنمایی، توزیع نمایی تعمیم یافته، توزیع وایبول نمایی شده
  • عیسی محمودی*، سودابه سجادی پناه، محمدصادق زمانی صفحات 127-148

    در این مقاله، روش نمونه گیری دو مرحله ای بهبود یافته پیرامون میانگین مدل خودبازگشتی مرتبه اول مطالعه شده است. برآورد نقطه ای و فاصله ای  میانگین مدل بر اساس برآوردگرهای کمترین توان های دوم با شرط مینیمم سازی تابع مخاطره بررسی  شده است.  توزیع مجانبی برآوردگر میانگین نیز بر اساس قاعده توقف نقطه ای ارایه شده است. هم چنین مطالعه شبیه سازی مونت کارلویی برای بررسی کارایی روش پیشنهادی نسبت به روش اندازه نمونه ثابت بهینه بر اساس  متغیر توقف، نسبت متغیر به اندازه نمونه ثابت بهینه، برآورد میانگین، ریشه دوم میانگین توان های دوم خطا، نسبت تابع مخاطره حاصل از روش ارایه شده به مخاطره  اندازه نمونه ثابت بهینه و  احتمال پوشش بازه اطمینان طراحی و اجرا شده است. در انتها، با به کارگیری داده واقعی کاربرد روش ارایه شده مورد بررسی قرار گرفته است.

    کلیدواژگان: نمونه گیری دومرحله ای بهبود یافته، مدل خودبازگشتی، برآوردگر کمترین توان های دوم، شبیه سازی مونت کارلویی
  • بی بی مریم طاهری، هادی جباری نوقابی*، محمد امینی صفحات 149-163

    توجه به تابع مفصل به منظور مدل سازی ساختار وابستگی داده ها در دهه های اخیر بسیار رایج شده است. سه روش گشتاوری، ترکیبی و گشتاور مفصل برای برآورد پارامتر وابستگی تابع مفصل در حضور داده دورافتاده در این مقاله مورد نظر است. هرچند روش گشتاوری یک روش قدیمی است، اما گاهی اوقات این روش منجر به برآورد نامناسبی می گردد. در نتیجه، دو روش دیگر برآورد پارامتر بر پایه گشتاوری برای بهبود برآورد پارامتر در نظر گرفته شده اند. نتایج مطالعه شبیه سازی نشان داد که وقتی از روش گشتاور مفصل و روش ترکیبی برای مفصل در حضور داده دورافتاده استفاده می کنیم، میانگین مربع خطای به دست آمده کوچک تر است. همچنین روش گشتاور مفصل بهترین برآورد براساس میانگین مربع خطا است. در نهایت، نتایج عددی به دست آمده در یک مثال کاربردی به کار گرفته می شود.

    کلیدواژگان: مفصل، برآورد گشتاور-مبنا، داده دورافتاده، پارامتر وابستگی، تحلیل دومتغیره
  • پرویز نصیری*، رئوف عبیدی صفحات 165-188

    مطالعه برازش داده های طول عمر به کمک توزیع های مرکب از جمله توزیع های مرکب وایبول وارون اخیرا مورد توجه تعداد زیادی از محققان قرار گرفته است. در این مقاله پس از ارایه توزیع مرکب وایبول وارون-پواسن، برازش داده های طول عمر سانسورشده مورد بررسی قرار می گیرد. حضور پارامترهای مقیاس، شکل و  نرخ شکست در این توزیع، نیازمند بررسی از حیث برآورد و آزمون فرضیه از اهمیت خاصی برخوردار است، لذا پارامترها تحت سانسور نوع دوم با استفاده از روش های ماکسیمم درستنمایی و بیزی برآورد می شوند. در برآورد بیزی پارامترها تحت توابع زیان مختلف براساس توزیعهای پیشین مناسب برآورد می شوند. در بخش شبیه سازی، فاصله اطمینان متقارن و فاصله اطمینان بیزی با بالاترین چگالی پسین ارایه و برآوردگرها با استفاده از معیارهای آماری مورد مقایسه قرار می گیرد. در پایان نیکویی برازش توزیع وایبول وارون-پواسن با استفاده از یک مجموعه داده واقعی در مقایسه با سایر توزیع های مرکب مورد ارزیابی قرار می گیرد.

    کلیدواژگان: توزیع مرکب، وایبول وارون، سانسور نوع دوم
  • لیدا کلهری ندرآبادی*، زهره فلاح محسن خانی صفحات 189-207

    در کشورهایی که آمارگیری نیروی کار بر اساس نمونه گیری چرخشی است، به علت وجود افراد مشترک در دوره های مختلف آمارگیری، آمار تغییر وضعیت ، قابل برآورد است و با عنوان آمارهای جریان ارایه می شود. یکی از مهم ترین خطاهای غیرنمونه گیری در آمارهای بازار کار، خطای پاسخ است. در آمارهای جریان این خطا مضاعف است. معمولا خطای رده بندی آمارهای جریان با استفاده از روش پر هزینه و دشوار مصاحبه مجدد برآورد می شود. در این مقاله ضمن ارایه فرایند برآورد آمار جریان و مدل های مناسب برای محاسبه خطای رده بندی در آن، با توجه به الگوی چرخش نمونه گیری در آمارگیری نیروی کار ایران هر یک از روش ها امکان سنجی شده است. در خاتمه مدل رده نهان مارکوف با فرض نابرابری احتمال های انتقال بر اساس الگوی چرخش نمونه های نیروی کار ایران به عنوان مدلی مناسب برای برآورد خطای رده بندی در آمار جریان ایران با استفاده از داده های آمارگیری نیروی کار سال های 1398 و 1399 معرفی شده است.

    کلیدواژگان: آمارگیری نیروی کار، آمار جریان، مدل رده نهان مارکوف
  • معصومه قهرمانی، مریم شرفی*، رضا هاشمی صفحات 209-238

    یکی از مهم ترین چالش ها در بحث داده های سانسور فزاینده نوع دو، تعیین طرح برداشت است. طرح برداشت می تواند ثابت باشد یا به صورت تصادفی، برطبق  توزیع احتمال گسسته ای، انتخاب شود. در این مقاله ابتدا، دو توزیع توام گسسته برای برداشت های تصادفی تحت توزیع طول عمر وایبل دو پارامتری معرفی می شوند. روش های پیشنهادی مبتنی بر  فواصل نرمالیده  آماره های مرتب سانسور فزاینده نوع دو نمایی است. همچنین  امید ریاضی زمان مورد انتظار تحت روش های پیشنهادی به دست آمده  است. برآورد پارامترها بر اساس روش های ماکسیمم درستنمایی، کمترین توان های دوم و ماکسیمم حاصل ضرب فاصله ای حاصل می شوند. در ادامه، با استفاده از روش های  شبیه سازی مونت کارلو،  الگوهای برداشت پیشنهادی با الگوهای برداشت یکنواخت گسسته، دوجمله ای و طرح های برداشت ثابت از لحاظ اریبی، مجذور میانگین مربع خطای برآوردگرها و امید ریاضی زمان کل مورد انتظار آزمایش مقایسه می شوند. همچنین، نسبت امید ریاضی زمان مورد انتظار تحت سانسور فزاینده نوع دو نیز به، حالت بدون برداشت بررسی می شود. سرانجام، عملکرد رهیافت های پیشنهادی، در یک مجموعه داده  واقعی  نشان داده می شود.

    کلیدواژگان: برآورد ماکسیمم حاصل ضرب فاصله ای، برآورد ماکسیمم درستنمایی، برداشت تصادفی، داده طول عمر، زمان مورد انتظار آزمایش
  • موسی گلعلی زاده*، صدیقه نورانی صفحات 239-252

    امروزه  مشاهدات اندازه گیری شده در بسیاری از حوزه های علمی، مثل علوم زیستی اغلب بعد بالا هستند، به این معنی که تعداد متغیرها از تعداد نمونه بیشتر است. یکی از مشکلاتی که در خوشه بندی مدل مبنای اینگونه داده ها رخ می دهد برآورد تعداد زیادی پارامتر است. برای رفع چنین مشکلی، ابتدا باید بعد داده ها را قبل از خوشه بندی کاهش داد که این امر  می تواند از طریق روش های کاهش بعد انجام شود. یک رویکرد اخیر  در این زمینه که مورد توجه فراوان قرار گرفته روش تصویرهای تصادفی است. در مقاله حاضر این روش از هر دو منظر نظری و کاربردی  مورد بررسی قرار گرفته و برتری آن در مقایسه با برخی رویکردهای مرسوم کاهش بعد مانند تحلیل مولفه های اصلی و روش انتخاب متغیر  در تحلیل سه مجموعه داده واقعی نشان داده شده است.

    کلیدواژگان: داده های بعد بالا، خوشه بندی مدل مبنا، روش های کاهش بعد، تصویرهای تصادفی
|
  • Zahra Rezaei Ghahroodi*, Zhina Aghamohamadi Pages 1-24

    With the advent of big data in the last two decades, in order to exploit and use this type of data, the need to integrate databases for building a stronger evidence base for policy and service development is felt more than ever. Therefore, familiarity with the methodology of data linkage as one of the methods of data integration and the use of machine learning methods to facilitate the process of recording records is essential. In this paper, in addition to introducing the record linkage process and some related methods, machine learning algorithms are required to increase the speed of database integration, reduce costs and improve record linkage performance. In this paper, two databases of the Statistical Center of Iran and Social Security Organization are linked.

    Keywords: Record Linkage, Machine Learning, Fellegi-Sunter Model, Jaro, Winkler String Comparison, Official Statistics
  • Ebrahim Amini-Seresht, Ghobad Barmalzan, Ebrahim Nasiroleslami‎* Pages 25-40

    This paper deals with some stochastic comparisons of convolution of random variables comprising scale variables. Sufficient conditions are established for these convolutions' likelihood ratio ordering and hazard rate order. The results established in this paper generalize some known results in the literature. Several examples are also presented for more illustrations.

    Keywords: Likelihood Ratio Order, Hazard Rate Order, Scale Model, Convolution
  • Abouzar Bazyari*, Morad Alizadeh Pages 41-62

    In this paper, the collective risk model of an insurance company with constant surplus initial and premium when the claims are distributed as Exponential distribution and process number of claims distributed as Poisson distribution is considered. It is supposed that the reinsurance is done based on excess loss, which in that insurance portfolio, the part of total premium is the share of the reinsurer. A general formula for computing the infinite time ruin probability in the excess loss reinsurance risk model is presented based on the classical ruin probability. The random variable of the total amount of reinsurer's insurer payment in the risk model of excess loss reinsurance is investigated and proposed explicit formulas for calculating the infinite time ruin probability in the risk model of excess loss reinsurance. Finally, the results are examined for Lindley and Exponential distributions with numerical data.

    Keywords: Ruin Probability, Initial Increase, Excess Loss Reinsurance, Lindley Distribution
  • Farzad Eskandari*, Hamid Haji Aghabozorgi Pages 63-89

    Graphical mixture models provide a powerful tool to visually depict the conditional independence relationships between high-dimensional heterogeneous data. In the study of these models, the distribution of the mixture components is mostly considered multivariate normal with different covariance matrices. The resulting model is known as the Gaussian graphical mixture model. The nonparanormal graphical mixture model has been introduced by replacing the limiting normal assumption with a semiparametric Gaussian copula, which extends the nonparanormal graphical model and mixture models. This study proposes clustering based on the nonparanormal graphical mixture model with two forms of $ell_1$ penalty function (conventional and unconventional), and its performance is compared with the clustering method based on the Gaussian graphical mixture model. The results of the simulation study on normal and nonparanormal datasets in ideal and noisy settings, as well as the application to breast cancer data set, showed that the combination of the nonparanormal graphical mixture model and the penalty term depending on the mixing proportions, both in terms of cluster reconstruction and parameters estimation, is more accurate than the other model-based clustering methods.

    Keywords: Clustering, Graphical Mixture Models, Nonparanormal Distribution, Penalized Log-Likelihood
  • Aliakbar Hosseinzadeh*, Ghobad Barmalzan, Mostafa Sattari Pages 91-108

    In this paper, we discuss the hazard rate order of (n-1)-out-of-n systems arising from two sets of independent multiple-outlier modified proportional hazard rates components. Under certain conditions on the parameters and the sub-majorization order between the sample size vectors, the hazard rate order between the (n-1)-out-of-n systems from multiple-outlier modified proportional hazard rates is established.

    Keywords: Hazard Rate Ordering, Multiple-Outlier Modified Proportional Hazard Rates Model, Submajorization Order, (n-1)-out-of-n Systems
  • Abedin Haidari, Mostafa Sattari*, Ghobad Barmalzan Pages 109-126

    Consider two parallel systems with their component lifetimes following a generalized exponential distribution. In this paper, we introduce a region based on existing shape and scale parameters included in the distribution of one of the systems. If another parallel system's vector of scale parameters lies in that region, then the likelihood ratio ordering between the two systems holds. An extension of this result to the case when the lifetimes of components follow exponentiated Weibull distribution is also presented.

    Keywords: Parallel Systems, Likelihood Ratio Order, Generalized Exponential Distribution, Exponentiated Weibull Distribution
  • Eisa Mahmoudi*, Soudabeh Sajjadipanah, MohammadSadegh Zamani Pages 127-148

    In this paper, a modified two-stage procedure in the Autoregressive model  AR(1) is considered, which investigates the point and the interval estimation of the mean based on the least-squares estimator. The modified two-stage procedure is as effective as the best fixed-sample size procedure. In this regard, the significant properties of the procedure, including asymptotic risk efficiency, first-order efficiency, consistent, and asymptotic distribution of the mean, are established. Then, a Monte Carlo simulation study is deduced to investigate the modified two-stage procedure. The performance of estimators and confidence intervals are evaluated utilizing a simulation study. Finally, real-time series data is considered to illustrate the applicability of the modified two-stage procedure.

    Keywords: Modified Two-Stage Procedure, Autoregressive Model, Least-Squares Estimator, Monte Carlo Simulation
  • Bibi Maryam Taheri, Hadi Jabbari*, Mohammad Amini Pages 149-163

    Paying attention to the copula function in order to model the structure of data dependence has become very common in recent decades. Three methods of estimation, moment method, mixture method, and copula moment, are considered to estimate the dependence parameter of copula function in the presence of outlier data. Although the moment method is an old method, sometimes this method leads to inaccurate estimation. Thus, two other moment-based methods are intended to improve that old method. The simulation study results showed that when we use copula moment and mixture moment for estimating the dependence parameter of copula function in the presence of outlier data, the obtained MSEs are smaller. Also, the copula moment method is the best estimate based on MSE. Finally, the obtained numerical results are used in a practical example.

    Keywords: Copula, Outlier, Moment-Based Estimate, Dependence Parameter, Bivariate Analysis
  • Parviz Nasiri*, Raouf Obeidi Pages 165-188

    This paper presents the inverse Weibull-Poisson distribution to fit censored lifetime data. The parameters of scale, shape and failure rate are considered in terms of estimation and hypothesis testing, so the parameters are estimated under the type-II of censorship using the maximum likelihood and Bayesian methods. In Bayesian analysis, the parameters are estimated under different loss functions. The simulation section presents the symmetric confidence interval and HPD, and the estimators are compared using statistical criteria. Finally, the model's goodness of fit is evaluated using an actual data set.

    Keywords: Compound Distribution, Inverse Weibull, Type-II Censoring
  • Lida Kalhori Nadrabadi*, Zohreh Fallah Mohsekhani Pages 189-207

    In countries where labor force surveys are based on rotation samples and partially standard sample units at different periods, the number of changing statuses can be estimated and presented as flow statistics. The response error is one of the essential non-sampling errors in labor force statistics. This error is doubled in flow statistics. Usually, the error of classifying flow statistics is estimated using the interview method, which is costly and complex. This paper presents the process of estimating flow statistics and appropriate models for calculating the classification error for it. Also, according to Iran's sample rotation pattern, each model's feasibility is examined. Finally, the Markov latent class model, assuming inequality of transition probabilities based on the rotation pattern of Iran for labor force samples, is introduced as a fit model for estimating classification error for flow statistics in Iran using the labour force survey data of 2019 and 2020.

    Keywords: Labor Force Survey, Flow Statistic, Markov Latent Class Model
  • Masumeh Ghahramani‎, Maryam Sharafi*, Reza Hashemi Pages 209-238

    One of the most critical challenges in progressively Type-II censored data is determining the removal plan. It can be fixed or random so that is chosen according to a discrete probability distribution. Firstly, this paper introduces two discrete joint distributions for random removals, where the lifetimes follow the two-parameter Weibull distribution. The proposed scenarios are based on the normalized spacings of exponential progressively Type-II censored order statistics. The expected total test time has been obtained under the proposed approaches. The parameters estimation are derived using different estimation procedures as the maximum likelihood, maximum product spacing and least-squares methods. Next, the proposed random removal schemes are compared to the discrete uniform, the binomial, and fixed removal schemes via a Monte Carlo simulation study in terms of their biases; root means squared errors of estimators and their expected experiment times. The expected experiment time ratio is also discussed under progressive Type-II censoring to the complete sampling plan.

    Keywords: Expected Experiment Time, Lifetime Data, Maximum Likelihood Estimation, Maximum Product Spacing Estimation, Random Removal
  • Mousa Golalizadeh*, Sedigheh Noorani Pages 239-252

    Nowadays, the observations in many scientific fields, including biological sciences, are often high dimensional, meaning the number of variables exceeds the number of samples. One of the problems in model-based clustering of these data types is the estimation of too many parameters. To overcome this problem, the dimension of data must be first reduced before clustering, which can be done through dimension reduction methods. In this context, a recent approach that is recently receiving more attention is the random Projections method. This method has been studied from theoretical and practical perspectives in this paper. Its superiority over some conventional approaches such as principal component analysis and variable selection method was shown in analyzing three real data sets.

    Keywords: High Dimensional Data, Model-Based Clustering, Dimension Reduction Methods, Random Projections